3  Analyse van factoren

ITD | B Communication and Multimedia Design (CMD) - voltijd - versie 1.0

3.1 Inleiding

In deze verdiepende analyse gaan we in op de factoren om beter te begrijpen hoe deze retentie verklaren.

3.1.1 De meest voorspellende factoren

De meeste voorspellende factoren zijn:

Figuur 3.1: Meest voorspellende factoren - RMSE

De meest voorspellende variabelen hebben een grote invloed hebben op de voorspelling van het model, maar kunnen per toepassing op een individuele student uit het verleden ook sterk variëren.

3.1.2 Inspecteer variabelen met de meeste invloed

Een volgende analyse is een toepassing van het model op de meest voorkomende student. We kijken eerst naar de meest voorkomende student in het algemeen. Vervolgens analyseren we de meest voorkomende student in meerdere groepen: naar geslacht, aansluiting, vooropleiding, etc. Om de meest voorkomende student te bepalen, gebruiken we de meeste frequente waarden van de verklarende variabelen in de dataset per groep.

Doordat deze analyse rekening houdt met interactie effecten, niet lineaire effecten en collineariteit, kan de volgorde van variabelen wat verschillen van die van een op RMSE gebaseerde analyse.

NB. Het kan goed zijn dat we combinaties krijgen van waarden van variabelen die niet kunnen voorkomen, bijv. een student van het mbo met een E&M profiel. Dit is wel correct: het is een fictieve student die de meest voorkomende kenmerken van de totale populatie van studenten van deze opleiding vertegenwoordigt.

Ter illustratie

Stel dat we een onderscheid maken tussen mbo en havo studenten, dan bepalen we de mediaan van numerieke variabelen en de meest frequente waarde van categorische variabelen. Van de leeftijd kan misschien 20 het vaakst voorkomen, etc.

We onderzoeken zo de voorspelling van het model per groep en de bijdrage van de verklarende variabelen aan die specifieke voorspelling. Dit geeft een verder inzicht in de werking van het model. Een categorie met 20 studenten of minder laten we buiten beschouwing.

3.1.2.1 Toelichting op de opbouw van de kans op retentie

De opbouw van het model bestaat uit een intercept, gevolgd door verklarende variabelen die een verschil maken ten opzichte van die intercept. De intercept is de basiskans op retentie voor alle studenten. Deze kans is voor de B Communication and Multimedia Design (CMD) voltijd 61,9%. De cumulatieve bijdrage van de variabelen aan de voorspelling kan positief of negatief zijn. Een positieve bijdrage betekent dat de variabele de kans op retentie verhoogt, een negatieve bijdrage betekent dat het de kans op retentie verlaagt.

Het kan zijn dat nieuwe variabelen geen invloed meer hebben op de kans. Dit betekent niet per se dat ze niet belangrijk zijn. Het kan zijn dat de invloed die ze hebben op de kans al is ‘afgevangen’ door variabelen die eerder in het model zijn opgenomen.

Ter illustratie

De variabele Cijfer_CE_VO_missing = Ja betekent dat een student geen VO cijfers heeft voor het centraal schriftelijk examen. Dit geldt voor vrijwel alle MBO studenten. Doordat de variabele Cijfer_CE_VO_missing de kans op retentie net wat sterker beïnvloedt, komt Vooropleiding = MBO niet meer voor als invloedrijke variabele, maar is dit wel de achterliggende reden dat het cijfer ontbreekt.

Uiteindelijk tellen alle verklarende variabelen op tot een definitieve voorspelling die per persoon verschilt, afhankelijk van hun persoonlijke verschillen per variabele.

3.1.2.2 De meest voorkomende student (totaal)

We onderzoeken eerst de meest voorkomende student in de opleiding. We analyseren de kans op retentie voor deze fictieve student en de bijdrage van de variabelen aan die kans. Daarbij tonen we de verdeling van de voorspellingen voor deze student voor alle variabelen en per variabele. Dit laat zien welke variabelen belangrijk zijn, naar welke kant de verdeling neigt en welke spreiding de kansverdeling heeft.

Toelichting

  • All data - De eerste variabele all data is eigenlijk geen variabele, maar geeft aan wat alle data samen aan kans op retentie voorspellen. Variabelen die daarna bovenaan staan, wegen het zwaarst in de voorspelling van de kans.
  • Richting - Als de verdeling van de kansen naar de linkerkant van de x-as gaat, draagt deze variabele meer bij aan een toename op de kans op retentie; als deze naar de rechterkant beweegt, draagt deze variabele juist bij aan een afname op de kans op retentie
  • Spreiding - Als de spreiding breed is, geeft dit aan dat er binnen deze variabele veel variatie is in de kans op retentie en er voorzichtig mee omgegaan moet worden. Als de spreiding heel smal is, betekent dit dat de variabele weinig of geen invloed heeft op de kans op retentie. Deze variabelen bevinden zich op de intercept.
  • Vorm - De vorm achter de variabele (een viool) geeft de verdeling van de kans op retentie weer. Hoe breder de viool-vorm, hoe meer studenten op die locatie een kans op retentie hebben.
Figuur 3.2: Opbouw van de kans op retentie

3.1.2.3 De meest voorkomende student (per groep)

Nu de algemene opbouw van de kans op retentie bekend is voor de meest voorkomende student, gaan we verder met een analyse van de meest voorkomende studenten per groep.

De volgorde van de variabelen is zo gesorteerd dat per groep de meest voorspellende variabelen bovenaan staat. De volgorde verschilt per groep en geeft inzicht in wat er per groep speelt. De variabelen zijn vaak proxies voor onderliggende verschillen.

3.1.2.3.1 Naar geslacht
Figuur 3.3: Breakdown naar geslacht: M
Figuur 3.4: Breakdown naar geslacht: V
3.1.2.3.2 Naar aansluiting

De subtotalen voor de categorieën 2e Studie en Na CD zijn te laag voor een betrouwbare analyse.

Figuur 3.5: Breakdown naar aansluiting: Direct
Figuur 3.6: Breakdown naar aansluiting: Tussenjaar
Figuur 3.7: Breakdown naar aansluiting: Switch intern
Figuur 3.8: Breakdown naar aansluiting: Switch extern
3.1.2.3.3 Naar vooropleiding
Figuur 3.9: Breakdown naar vooropleiding: MBO
Figuur 3.10: Breakdown naar vooropleiding: HAVO
Figuur 3.11: Breakdown naar vooropleiding: VWO
Figuur 3.12: Breakdown naar vooropleiding: BD
Figuur 3.13: Breakdown naar vooropleiding: CD
Figuur 3.14: Breakdown naar vooropleiding: HO

3.1.3 Shapley

Na deze factorentanalyse kijken we naar de stabiliteit van de invloed van de verklarende variabelen. We gebruiken hiervoor Shapley waarden.

Figuur 3.15: Shapley values

Toelichting:

  • De variabelen met blauwe balken verhogen de kans op retentie, de variabelen met rode balken verlagen de kans op retentie
  • De boxplot in iedere balk geeft de spreiding van de bijdrage van de variabelen aan de voorspelling weer. Hoe breder de boxplot, des te meer variatie in de bijdrage van de variabele aan de voorspelling.
  • De positie van de variabele geeft het belang van de variabele aan in de voorspelling. Hoe hoger de variabele, des te belangrijker de variabele is in de voorspelling.

3.1.4 What-if: een Ceteris Paribus analyse

Vervolgens analyseren we een aantal scenario’s (wat als…). We nemen opnieuw de meest voorkomende studenten, maar beelden nu af hoe de kans op retentie eruit zou zien als telkens een van de variabelen net wat anders was geweest.

Let op!

Dit is de invloed van de variabelen bij de unieke combinatie van deze meest voorkomende student per categorie. Zie voor de invloed van een variabelen ongeacht deze unieke combinatie de analyse van Partial Dependence Profielen in de volgende paragraaf.

Hiervoor houden we steeds alle variabelen gelijk, op één na (ceteris paribus is Latijn voor ‘al het overige gelijk’). Van die ene variabelen passen we de waarden aan en zien dan het effect op de voorspelde kans op retentie. Dit geeft beter inzicht in het effect van de individuele variabelen in het model. We voeren deze analyse uit voor numerieke variabelen.

Ter illustratie

Stel dat de student in dit model net een wat hoger eindexamencijfer zou hebben gehad op de middelbare school, wat zou dan de kans op retentie zijn geweest? Het is waarschijnlijk dat de kans op retentie dan hoger zou zijn geweest. Bij hbo-opleidingen die goed aansluiten hebben met een opleiding aan een universiteit, zou de kans op retentie juist lager zijn geweest omdat studenten dan na een hbo-diploma vaak doorstromen naar een universiteit.

Opnieuw kijken we naar geslacht, aansluiting en vooropleiding. N.B. Het kan zijn dat een van de categorieën niet zichtbaar is, dit komt doordat deze dan over elkaar heen vallen.

Figuur 3.16: Ceteris-paribus profiel naar geslacht
Figuur 3.17: Ceteris-paribus profiel naar aansluiting
Figuur 3.18: Ceteris-paribus profiel naar vooropleiding

3.1.5 Partial Dependence analyse

Tot slot analyseren we Partial Dependence. Hierbij onderzoeken we de invloed van individuele variabelen op de kans op retentie, ongeacht de combinatie van de meest voorkomende studenten. Per (numerieke) variabele analyseren we de variantie binnen de kansen op retentie. We gebruiken hiervoor het gemiddelde van alle Ceteris Paribus profielen. Vandaar dat we ook wel spreken over Partial Dependence profielen (PDP’s).

We analyseren eerst de variabelen voor alle studenten. We tonen niet alleen de gemiddelde lijn, maar ook de lijnen van de individuele CP-profielen. Vervolgens analyseren op dezelfde manier de variabelen per groep: geslacht, aansluiting en vooropleiding.

Toelichting

  • De gemiddelde lijn geeft de gemiddelde kans op retentie weer voor alle studenten in de dataset voor alle waarden per variabele.
  • De individuele lijnen geven de kans op retentie weer voor de individuele studenten in de dataset voor alle waarden per variabele. De bandbreedte van de individuele lijnen geeft de spreiding van de kans op retentie weer binnen de variabele. Het toont dat de kans op retentie per student kan verschillen, zelfs als de variabele gelijk is; de richting van het verband is wel gelijk.
  • Standaard worden 100 willekeurige profielen gekozen om deze afbeeldingen op te bouwen; door deze selectie kan het zijn dat sommige categorieën met weinig observaties in de populatie niet afgebeeld worden.
  • Doordat lijnen kunnen overlappen kan het zijn dat sommige lijnen niet zichtbaar zijn. De legenda geeft aan welke mogelijke categorieën voorkomen in de analyse.

3.1.5.1 Alle studenten

Figuur 3.19: Partial Dependence profiel naar alle studenten

3.1.5.2 Geslacht

Figuur 3.20: Partial Dependence profiel naar geslacht

3.1.5.3 Aansluiting

Figuur 3.21: Partial Dependence profiel naar aansluiting

3.1.5.4 Vooropleiding

Figuur 3.22: Partial Dependence profiel naar vooropleiding

 

Verantwoording

Deze analyse maakt deel uit van het onderzoek naar kansengelijkheid van het lectoraat Learning Technology & Analytics van De Haagse Hogeschool: No Fairness without Awareness | Het rapport is door het lectoraat ontwikkeld in Quarto 1.6.39. | Template versie:

 

Copyright

Dr. Theo Bakker, Lectoraat Learning Technology & Analytics, De Haagse Hogeschool © 2023-2025. Alle rechten voorbehouden.